查看原文
其他

考研之后,文科生需以“do”躬“do”!

爬虫俱乐部 Stata and Python数据分析 2022-03-15

本文作者:李春涛、赵 磊

本文编辑:王玉洁

技术总编:李婷婷


灵魂发问:文科生,如何度过这漫长等待的后考研时代?




说起此题目,不由想起南宋老陆说的一句话,

纸上得来终觉浅,觉知此事要躬行。

老陆说的没错,纸上得来终觉浅,我们一起do,do,do

注:do,do,do分别表示:do(干、做、学),do(执行、运行),do(do-file)

曾几何时,南宋老陆,给他熊孩子说:你搁这儿弄啥嘞,读书顶个球(纸上得来终觉浅),还不赶紧下地干活,不耕地你吃啥,喝西北风啊(不想挨饿要躬耕)。错了?么错,民以食为天,人是铁,饭是钢,一顿不吃饿得慌啊。吃饭是大事,绝对要知道啊,不亲自下地干活,饭还能从天下掉下来不成?天上不会掉馅饼,不干活,没饭吃,饿死你个龟孙!这才是老陆说的绝知此事要躬行的本意啊。老陆不是河南人咋会河南话?又错了?么错,从北宋到南宋,那个年代河南话全国最流行,况且老陆还曾是官二代,陆父当年还是开封府交通厅副厅长,老陆小时候可能还在开封府实验小学读过几年书,早上喜欢喝胡辣汤配着油馍头水煎包(有时也吃不翻汤羊肉汤锅贴),每逢周末放学经常高铁或滴滴去国棉四厂吃个羊肉烩面烤个串串,兴致高时还整点啤酒(少儿不宜)……得(dai)劲!再况且,据“不相关文献”研究表明:其前岳父唐闳(唐婉她爹)大概也是开封府督导组巡视员,再再况且,其前岳父的爹(唐婉她爷)在东京汴梁官拜教育部副部长(唐闳也是官二代)……证据颇多,篇幅所限,不一一赘述。综上所述,南宋老陆会河南话,喜欢河南烩面胡辣汤不足为奇,后来可能因河南高考太难,且美食太多又早恋,老陆屡屡科举不中,迫于虎妈(陆母)淫威,无奈被迫斩断情丝,告别烩面胡辣汤,回老家绍兴备考……(本故事不全虚构,如遇巧合,算你狠,如有雷同,纯属你抄袭我)










说起老陆,又让我想起了悲情故事:

红酥手,黄縢酒……

春如旧,人空瘦……

(为什么我一直这么瘦,呜呜呜~~~)

世情薄,人情恶……

人成各,今非昨……

错错错,莫莫莫……

难难难,瞒瞒瞒……

(老陆是个“妈宝男”,读者莫误会我调侃,实则深感惋惜,叹!叹!叹!)

老陆爱唐有多深,苔花难表他的心

婉儿爱陆更甚几分,一往情深爱更真

相知相思苦无尽,我就纳闷他们为何不私奔?

争奈生死作相思,魂断香消憾终身……

(愚以为没有什么比爱情更可贵更值得抛去一切去争取,如果有,那是你不懂爱,

换我无疑必私奔,不管结婚or离婚,不顾封建或当今,黎明牵手到黄昏,山崩海枯永不分!……)

敢问世间情为何物,答案或许就在爬虫俱乐部

这里有个链接出处,有事没事不妨读读

细细品味或有感触,也许某天你能参悟(看修为、看缘分、看造化)

推文链接出处:问世间情为何物,大数据也想参悟(也是写给后考研时代的童鞋,可以参考哦)





















严重跑偏,抱歉抱歉

想到老友老陆,不由感慨万千

莫笑我是多情种,谁还不爱做美梦

多情自古伤离别,多情自古空余恨,

还是少做春秋梦,多做实事方清醒

跑偏,我还能跑回来,做梦,我还能醒过来,没一点功力那是很难办到滴

下面,咱们言归正传(好家伙,这才开始啊(捂脸)):

结束铃声终于打响,轻轻松松(疲惫不堪)走出考场

考研结束、感觉揍是不一样

咋不一样?

有的同学喜气洋洋,有的同学拔凉拔凉

还有同学懒懒洋洋,无可救药不怕开水烫……

啊,心情&%¥@……,揍是不一样











考研复考研,人数何其多
若问多几何,Stata跟您说

 用Stata执行如下的命令可以得到下图:

clear allinput year 人数 2022 4572021 377 2020 341 2019 290 2018 238 2017 201 2016 1772015 164.92014 1722013 1762012 165.62011 151.12010 140.6end
twoway bar 人数 year,barwidth(.8) base(100) || /// scatter 人数 year,ms(none) mla(人数) mlabpos(12) legend(off) /// bcolor(yellow) color(white) fcolor(blue) /// title(2010-2021年全国硕士研究生报考人数) xmtick(2010(1)2022) xlabel(2010(2)2022)










2021年的最后一个周末,比2020年冷了一些

考研报名457万,这个程度那叫个惨烈

研究生真就那么香?其实未必能力强

In fact

人口老龄化、国家呼吁生三胎

相比之下,研究生文凭?算个啥

有无文凭不重要,好好生活是正道

面包总会有的,工作总会有的

考得不好莫灰心,一笑而过要洒脱

万一初试还不错?万一还能进复试?

哎呦老弟老妹儿,那咱还得再加把劲儿

想知如何被录取?

且听过来人给你唠唠嗑:










想被录取也“容易”,分数之外看能力
其实有很多导师不认可考试。学过一点概率统计的同学不难理解,考试是对你过去学过的知识点的一个小样本抽样,你学过的专业知识很多很多,可是考卷上能考的知识点就那么十几个,所以是小样本;既然是小样本,就难免存在偏差,比如你的优势是宏观经济学,但是考的微观知识太多,因此考卷难以反映你的实际能力;最后还少不了测量误差,原因是多方面的,比如试卷太多,阅卷老师难以诸字逐句认真阅读,比如书写清晰程度,卷面美感等都会影响到阅卷老师的评分。所以,以为考得不好的同学也不要失望太早,万一这一评分误差导致你的初试成绩出奇的好,但是因为过早地放弃,终究会在复试中遗憾终身。当然了,我们也相信试卷成绩还是有一定的代表性,毕竟是抽样,还是有客观性的一面。无论如何,在初试揭开盖子之前,还是坚持不要放弃,期待奇迹或许会发生。
万一奇迹真发生,想想“鸡冻”不“鸡冻”?

“激动”没用要行动,拨云见日榜上登
昌黎先生说,“师者,所以传道授业解惑也”,所以你将来是跟着老师学习,遇到不懂的问题就可以咨询老师,而愚以为,此话适用于中小学,以及部分本科阶段的学习,但不适用于研究生。小学问老师,中学问同学,大学问度娘,硕博问&%¥@#,呃……看缘分吧。事实上,到了硕博阶段,老师和学生之间的关系从老师教学生转变为师生共同创造知识,是探究为主,此为研究,所以是研究生。作为研究生,纵然你学富五车,才高八斗,能在竞猜问答中脱颖而出获得冠军,但也未必能证明你有研究的能力,研究就是创造知识的能力,有一定的研究范式,在文献的基础上,按照科学的研究范式去研究,方能有所建树。因此,某位哲人新说:师者,所以传道授业接活儿也!老话说得好:师傅领进门,修行在个人,老师就是要带领研究生,承接研究项目,创造知识,在创造知识的过程中培育学生,至于最终结果,要看个人修为了。
科学的研究范式是什么呢?对社会科学的研究来说,无非是数理模型、实验(包括田野实验)和实证分析,那些动辄“我认为”的语言,不是科学的研究,是学富五车满腹经纶的知名专家才能写出的大作,不适合研究生。所以,如果你想证明你的能力,一定要从数理模型、实验方法和实证分析三个方面下功夫,但是并非每个人都会拥有所有的技能,以经济学为例,大部分专家也并非Jack of all trades,他们或许是数理经济学家,或许是实验经济学家,或许是实证研究的专家,但很少有人啥球都会(就是羽毛球、篮球、足球、排球、乒乓球、铅球、曲棍球、橄榄球、冰球、门球、热气球啥球都会,懂河南话的更能理解其深意),你作为即将进入这个领域的小白,也不需要在这短短几个月中博览群书精通三种技能,主要看看你的专长,充分发挥你的长处。
以实验经济学(或社会学)为例,这个领域是烧钱的行业,你可以懂一些理论,但是却很难进行试验,原因是太费钱,准备复试的时候,可以忽略这个领域。
数理模型则需要较好的数学功底,而且也难以在短期内构建起来,对大部分社会科学和文科的考生来说,这一部分属于硬骨头,很多人自己会放弃的,不是北清复交为代表的一众985名校的,找个导师都难,不放弃也得放弃。
剩下的就是走实证路线了。实证就是用数据来证明,主要需要三个领域的知识结构,其一是你的专业基础,比如文献,当然这一块无论是走数理路线还是走实验路线都免不了的,还好,在复试的时候面试官基本上不会问这些问题,因为不太好问。比如考金融学的研究生,如果面试官问你是否熟悉Jen and Myers(2006)的某一篇文章的内容,恰好你又是主要研究宏观的,这就不公平了,所以这一块可以放在将来入学后仔细钻研。
其二是计量理论,特别是近年来越来越火的微观计量理论,如果你读文献能力还不足,可以看看大神李井奎教授的那本《大侦探经济学》,他把微观计量的应用文献用很通俗的语言娓娓道来,读了这本书可能你还不知道究竟如何做因果识别,但是吹牛讲道还是可以展示你的才艺的。将来有机会读研究生了,无论是经济学、金融学、会计学、社会学、法学,我都强烈推荐安格里斯特(Joshua D. Angris)等人写的那本Most Harmless Econometrics,其中文版《基本无害的计量经济学》也是大神李井奎翻译的。我无意给安格里斯特和李井奎教授做植入式广告,但这两本书确实值得你深入阅读。

当然你如果想快速学点计量模型,推荐中大玉君(连玉君)、人大艇爷(江艇)和浙大川神(张川川)、人大非哥(王菲)、南开群勇(王群勇)、山大强哥(陈强)的计量方法快餐课程,不过要备好大几千的银子,他们的课很贵,但是你值得拥有。这时候我忽然想起来,好像是酱菜的王胖子、还是社科院的人口学家吴大神、亦或是武大的罗女神说过,一个学校必须得有两个出色的计量老师,否则都不好意思说他们的经济学是一流的。当然诸神可以否认,毕竟打击面比较大,我也是记不清楚了,说错了纯属瞎扯淡。当然学什么计量都行,都离不开我们的数据课程,我们的课也曾经很贵,但是现在不足一折价格回馈社会了。

第三个也是最最重要的技能就是你的数据收集和整理的技能。这里我需要强调的是,什么是数据,数据并非仅仅包含我们看到的那些阿拉伯数字字符,而是信息的另一个名字,我们的科学研究用到的数据,不仅包括企业的财务数据、价格数据、通胀率失业率等数字构成的数据,还包括很多定性变量和基于文本的数据,比如人的性别、民族、宗教、语言;国家的法律渊源、殖民历史、气候;上市公司信息披露中的年报可读性、信息披露的语气,经济学中常常用到一些制度指标,比如法律保护的程度、官员的肚皮大小、脸的长宽比例,基金经理的颜值等指标。好的实证研究都离不开数据,特别是特色数据,所谓特色数据,往往不是现成的数据,需要我们自己去寻找,自己去编码,这里面常常用到的一项技术叫做网络数据收集(俗称爬虫),你要学会网络爬虫技术,爬到你需要的一个特色数据,并与你已经获得的(比如买来的)数据合并,得到实证结果。

实证研究中的回归分析是最简单的问题,你花费的90%的时间在整理数据,9%的时间在绘制表格报告结果,回归分析用的时间只有一杯咖啡的时间而已。当然,如果数据都是买来的,清洗数据花的时间也不多,可是你的研究很可能和别人撞车,因为你能买到的数据别人也买得到。关键是那个特殊的数据,往往是你需要手工整理的数据。为了一项研究,我们手工整理了判案文书网上的每一件杀人案和每一件抢劫案,为了研究基金经理的颜值,我们整理了7万个基金从业人员的照片,并通过一个APP给他们的颜值打分,整理上市公司公告,年报中的MD&A并分析其可读性、语气,几乎是我们的日常工作。为了研究高校的学术诚信,我们把知网100多万篇论文的摘要拿来,两两进行余弦相似度的计算。为了找到上市公司附近税务局的地址,我们开发了cnmapsearch命令,通过百度地图找税务局,为了计算上市公司与税务局之间的驾车距离和交通时间,我们开发了cntraveltime,可以给出从每个上市公司到附近税务局(购物中心、飞机场、任何你需要的位置)之间的驾车距离和交通时间。为了做好事件研究,我们发布了命令cnevent,为了发送一批电子邮件,我们开发了psemail命令。
不是说好了,还有9%的时间花在结果输出的制表上吗?我们开发了reg2docx,sum2docx,t2docxcorr2docx,你所有的研究结果输出问题都可以分分钟就能完成。以前修改论文后要花费大量的时间更新的表格,现在一套程序下来就跃然于纸上。
学会这些技能,勤奋的学生需要一周,懒散一点的需要一个月,智商够用的都可以学会。
既然是“师者所以传道授业接活儿也”,你一定要能够学会上述技能,才能有机会做老师的好帮手,协助老师做科学研究,从而提高自己的科研能力。只要你有机会证明你的能力,导师会礼贤下士对你说,娃儿,跟我读吧,我给你每个月800块生活费(一颗棒棒糖)!Anyway, 不是你求导师招你,而是导师主动招你,想想如果招了你,相当于有一个免费的研究助理,想想心里美,复试给高分!顺便说一句,爬虫俱乐部派往海外的研究助理,每个月工资大约20000元。说到这里我就很疑惑了,最近很多教授求助我们的团队整理数据,比如武大会计的陈女神找我们整理了专利的数据、东财的韩大牛交给我们10万+公司地址让我们找经纬度,岭南大学的青年才俊孙博士丢给我们13本书,让我们把13本书的表格转化成Excel。To name a few, 其实我们还承接过剑桥大学、清华大学、国某科技大学的数据分析项目,不便都写出来,不过,我都奇怪了,为嘛你们不让自己的学生学学我们的课程练练手呢?当然,我们张开双臂,欢迎各种数据外包,不过回到我们今天的正题,准研究生要做什么,学会数据分析采集的方法,导师会向你伸出干篮子(橄榄枝)的。
眼前,数据分析技术就是你可以在一个月可以拿下的一项高附加值的技能。我们的学生有很多到清华、中欧以及香港、澳门和新加坡的高校从事研究助理工作,我们也有很多学生到知名的大学攻读博士学位,这些学校包括清华大学五道口学院、北京大学光华管理学院、上海交通大学安泰管理学院、武汉大学经济管理学院、华中科技大学管理学院、西安交通大学经济管理学院和上海财经大学等,这些学生都拥有数据采集、数据分析的高超技艺,学术路线因此而被打开。
如果你拥有这些技术,你也可以在研究生复试中脱颖而出,因为你的能力正是很多导师所需要的,你们在创造知识的过程中会效率更高、成果卓著。
可是,如何拥有这样一门技术?(如下是植入广告,但是你一定要看到最后,因为里面有彩蛋,大大的福利,包括真金白银和小姐姐的在线答疑!)
其一,关注我们的公众号“Stata and Python数据分析”,我们的公众号二维码如下:

我们的公众号每周会有几篇数据技术的文章供大家学习,跟着公众号你也可以学会诸如绘制隔壁三哥家的国旗,绘制我们的五星红旗,采集网络上的某些数据,绘制词云图等技术。我们把有关的推文链接放在下面,特别推荐绘制五星红旗的推文。

《手绘五星兴家国——用Stata绘制五星红旗》

《我几乎画出了“隔壁三哥”家的国旗》

《如何用Stata绘制带指向性箭头标注的图像》

《让Stata完美牵手中国地图之cnmapsearch》

《轻松获取通行数据——cntraveltime命令介绍》

《命令更新之sum2docx:将描述性统计输出至Word文档》

《命令更新之reg2docx:将回归结果输出到word》

《命令更新之t2docx——报告分组均值t检验》

《命令更新之corr2docx:将相关系数矩阵报告至Word文档》

《玩转word文档“大变身”——wordconvert》

《爬完独立董事的年薪,我的眼镜跌破了!》

《用词云图看Sustainability期刊热门题目》

《爬虫实战 | 爬取中国天气网》

《来了!爬虫俱乐部优秀学员的Python进阶之路!》

《爬虫俱乐部成员的Stata学习经验分享来啦!》

但是公众号学习难以系统,也没有小姐姐答疑解惑,强烈推荐我们在腾讯课堂上的网课,其中Stata八天课程,涵盖了数据分析、网络爬虫和结果输出的全部精华,让你从小白直接晋级为一流高手,Python四天课程,深入浅出,两门课都是全案例教学,并配有在线答疑,任何时候遇到问题,只需在答疑群中咨询,便有工作人员给你宛如面对面的咨询答疑。

我们在下边也提供了这些网课的链接和二维码:

爬虫俱乐部Stata数据分析基础

(https://ke.qq.com/course/2807621)


爬虫俱乐部Stata数据分析进阶

(https://ke.qq.com/course/2963337)


爬虫俱乐部Python训练营

(https://ke.qq.com/course/3381170)


爬虫俱乐部Stata训练营-基本字符串函数专题(https://ke.qq.com/course/3413894)


爬虫俱乐部Stata训练营-正则表达式专题(https://ke.qq.com/course/3385273)


爬虫俱乐部Stata训练营-文本分析专题(https://ke.qq.com/course/3414406)


爬虫俱乐部Stata训练营-网络爬虫专题(https://ke.qq.com/course/3414249)

我们为广大考研学生提供如下优惠:
出示考研准考证,获得25元的优惠(Stata基础、Stata进阶和Python课程)
转发本文并集够50个赞,并出示考研准考证,获得50元的优惠
请联系我们的课程经理:子艳小姐姐  weixin: liuadaihaoren;Tel: 15226065228




您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存